हमने देखा है कि एआई टेक्स्ट उत्पन्न करता है, फिर चित्र बनाता है और हाल ही में लघु वीडियो भी बनाता है, भले ही उन्हें अभी भी कुछ सुधार की आवश्यकता है।
परिणाम अविश्वसनीय होते हैं जब आप सोचते हैं कि कोई भी वास्तव में इन टुकड़ों की निर्माण प्रक्रिया में शामिल नहीं है और इसे केवल एक बार प्रशिक्षित किया जाना है ताकि हजारों लोगों द्वारा स्थिर प्रसार जैसे उपयोग किया जा सके।
फिर भी, क्या ये मॉडल वास्तव में समझते हैं कि वे क्या कर रहे हैं? क्या वे जानते हैं कि उन्होंने अभी जो तस्वीर या वीडियो बनाया है, वह वास्तव में क्या दर्शाता है?
ऐसा मॉडल क्या समझता है जब वह ऐसी तस्वीर या उससे भी अधिक जटिल वीडियो देखता है? वीडियो में और जानें... (वीडियो में RTX GPU की सस्ता जानकारी भी है!)
पूरा लेख पढ़ें:
https://www.louisbouchard.ai/सामान्य-वीडियो-पहचान/
नी, बी, पेंग, एच।, चेन, एम।, झांग, एस।, मेंग, जी।, फू, जे।, जियांग, एस। और
लिंग, एच।, 2022। सामान्य के लिए भाषा-छवि पूर्व प्रशिक्षित मॉडल का विस्तार
वीडियो पहचान। arXiv प्रीप्रिंट arXiv:2208.02816.
कोड: https://github.com/microsoft/VideoX/tree/master/X-CLIP
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!):
https://www.louisbouchard.ai/newsletter/
0:00
हमने एआई को टेक्स्ट जेनरेट करते देखा है
0:02
चित्र उत्पन्न करें और हाल ही में भी
0:05
लघु वीडियो उत्पन्न करें, भले ही वे
0:07
अभी भी काम की जरूरत है परिणाम हैं
0:09
अविश्वसनीय खासकर जब आप सोचते हैं
0:11
कि कोई भी वास्तव में इसमें शामिल नहीं है
0:13
इन टुकड़ों की निर्माण प्रक्रिया और यह
0:16
केवल तब तक एक बार में प्रशिक्षित किया जाना है
0:18
जैसे हजारों लोगों द्वारा उपयोग किया जाता है
0:20
स्थिर प्रसार अभी भी ये करते हैं
0:23
मोडल वास्तव में समझते हैं कि वे क्या हैं
0:25
क्या वे जानते हैं कि चित्र क्या है या
0:27
वीडियो उन्होंने अभी-अभी बनाया है
0:29
प्रतिनिधित्व करता है कि ऐसा मॉडल क्या करता है
0:31
ऐसी तस्वीर देखे तो समझो
0:34
या इससे भी अधिक जटिल वीडियो आइए ध्यान केंद्रित करें
0:36
दो और के अधिक चुनौतीपूर्ण पर
0:38
एआई वीडियो को कैसे समझता है, इसमें गोता लगाएँ
0:41
सामान्य वीडियो नामक कार्य के माध्यम से
0:44
मान्यता जहां लक्ष्य a . के लिए है
0:46
इनपुट के रूप में वीडियो लेने और उपयोग करने के लिए मॉडल
0:49
में क्या हो रहा है इसका वर्णन करने के लिए पाठ
0:51
वीडियो लेकिन पहले मुझे लगता है कि आप प्यार करेंगे
0:53
यह एपिसोड प्रायोजक और उनके पास क्या है
0:55
के लिए एक अद्भुत मुफ्त एआई कार्यक्रम की पेशकश करने के लिए
0:59
इस वीडियो में मैं स्केल ai के साथ साझेदारी कर रहा हूं
1:01
स्कैलिया इनमें से एक के पीछे की कंपनी है
1:04
दुनिया के अग्रणी एआई सम्मेलनों का रूपांतरण
1:07
x इस अक्टूबर 19 से 21वीं ट्रांसफॉर्मिक्स
1:11
20,000 से अधिक एआई और को एक साथ लाएगा
1:14
एमएल नेताओं दूरदर्शी चिकित्सकों और
1:16
उद्योगों में शोधकर्ताओं का पता लगाने के लिए
1:19
एआई और मशीन लर्निंग का संचालन
1:22
स्थानांतरण मिश्रण एक निःशुल्क आभासी घटना है और
1:24
कंपनियों के 120 स्पीकर होंगे
1:27
जैसे मेटा ओपनई डीपमाइंड गूगल ईटीसी
1:31
और भी बहुत कुछ मैं व्यक्तिगत रूप से सुनने के लिए उत्साहित हूँ
1:33
ग्रेग ब्रॉकमैन ओपनई के सह-संस्थापक से
1:36
और राष्ट्रपति और कोरी के वीपी
1:39
गहरे दिमाग में अनुसंधान और प्रौद्योगिकी दो
1:41
हमारे में सबसे महत्वपूर्ण कंपनियों में से
1:43
क्षेत्र भी वास्तव में होगा
1:45
शानदार से दिलचस्प वार्ता
1:46
फ्रेंकोइस जैसे क्षेत्र में योगदानकर्ता
1:49
शैले केरस के निर्माता कि मैं करूँगा
1:51
निश्चित रूप से ट्यून करें अपने को याद न करें
1:53
इस मुफ्त शिक्षा में भाग लेने का मौका
1:55
घटना यह पिछले साल एक बड़ी हिट थी और
1:58
आप के साथ गाना याद नहीं करना चाहते
2:00
में भाग लेने के लिए नीचे पहला लिंक
2:01
मेरे साथ ट्रांसफॉर्मिक्स सम्मेलन और
2:03
मेरे काम का समर्थन करें
2:06
सामान्य वीडियो पहचान
2:08
में सबसे चुनौतीपूर्ण कार्यों में से एक है
2:10
वीडियो को समझना फिर भी यह हो सकता है
2:13
किसी मॉडल की प्राप्त करने की क्षमता का सर्वोत्तम माप
2:15
क्या हो रहा है यह भी आधार है
2:17
a . पर निर्भर कई अनुप्रयोगों के पीछे
2:19
खेल जैसे वीडियो की अच्छी समझ
2:22
विश्लेषण या स्वायत्त ड्राइविंग लेकिन क्या
2:24
वहाँ इस कार्य को इतना जटिल बना देता है
2:27
दो चीजें हैं जिन्हें हमें समझने की जरूरत है
2:30
प्रत्येक फ्रेम या प्रत्येक का अर्थ क्या दिखाया गया है
2:33
एक विशेष वीडियो की छवि दूसरा हम
2:36
यह कहने में सक्षम होने की आवश्यकता है कि हम क्या
2:38
एक तरह से समझते हैं इंसान समझते हैं
2:41
जिसका अर्थ है सौभाग्य से शब्दों का उपयोग करना
2:44
हमें दूसरी चुनौती का सामना करना पड़ा है
2:46
भाषा समुदाय द्वारा कई बार
2:49
और हम उनके काम को और अधिक संभाल सकते हैं
2:51
ठीक हम वही ले सकते हैं जो लोग से
2:53
भाषा छवि क्षेत्र के साथ किया है
2:56
क्लिप या स्थिर जैसे मॉडल
2:58
प्रसार जहां आपके पास टेक्स्ट एन्कोडर है
3:01
और एक छवि एन्कोडर जो सीखता है
3:04
में दोनों प्रकार के इनपुट को एन्कोड करें
3:06
उसी तरह का प्रतिनिधित्व इस तरह आप
3:09
एक समान दृश्य की तुलना एक समान से कर सकते हैं
3:11
आर्किटेक्चर को प्रशिक्षित करके टेक्स्ट प्रॉम्प्ट
3:13
लाखों छवि कैप्शन उदाहरण के साथ
3:16
टेक्स्ट और इमेज दोनों वाले जोड़े
3:18
एक समान स्थान में एन्कोडेड शक्तिशाली है
3:20
क्योंकि इसमें बहुत कम जगह लगती है
3:22
संगणना करते हैं और यह हमें करने की अनुमति देता है
3:24
आसानी से अर्थ वाली छवियों से टेक्स्ट की तुलना करें
3:27
कि मॉडल अभी भी समझ में नहीं आता है
3:29
एक छवि या एक साधारण वाक्य भी लेकिन
3:32
यह कम से कम समझ सकता है अगर दोनों हैं
3:34
समान या नहीं हम अभी भी दूर हैं
3:37
बुद्धि लेकिन यह बहुत उपयोगी है
3:39
और ज्यादातर मामलों के लिए काफी अच्छा अब आता है
3:42
यहां सबसे बड़ी चुनौती के साथ वीडियो
3:44
और उसके लिए हम दृष्टिकोण का उपयोग करेंगे
3:47
बर्लिन मुझे और उनके सहयोगियों ने हाल ही में
3:49
कागज का विस्तार भाषा छवि
3:51
सामान्य वीडियो के लिए पूर्व-प्रशिक्षित मोडल
3:54
मान्यता वीडियो बहुत अधिक जटिल हैं
3:56
अस्थायी के कारण छवियों की तुलना में
3:58
सूचना का अर्थ है कई फ्रेम
4:01
और तथ्य यह है कि प्रत्येक फ्रेम जुड़ा हुआ है
4:03
अगले और पिछले एक के साथ
4:05
सुसंगत आंदोलन और कार्य मॉडल
4:08
यह देखने की जरूरत है कि इस दौरान पहले क्या हुआ था
4:10
और प्रत्येक फ्रेम के बाद एक उचित
4:13
दृश्य की समझ यह बस है
4:15
यूट्यूब की तरह आप वास्तव में 5 . को छोड़ नहीं सकते
4:18
आपके जैसे छोटे वीडियो में सेकंड आगे
4:20
इसमें बहुमूल्य जानकारी याद आएगी
4:23
मामले में वे प्रत्येक फ्रेम लेते हैं और उन्हें भेजते हैं
4:25
उसी छवि एन्कोडर में हम बस
4:27
एक दृष्टि ट्रांसफार्मर का उपयोग करके चर्चा की गई
4:30
उन्हें संसाधित करने के लिए आधारित वास्तुकला
4:32
ध्यान का उपयोग करते हुए एक संघनित स्थान यदि आप
4:35
दृष्टि से परिचित नहीं हैं
4:36
ट्रांसफार्मर या ध्यान तंत्र
4:39
मैं आपको वीडियो देखने के लिए आमंत्रित करूंगा I
4:40
एक बार आपके पास होने के बाद उनका परिचय दिया
4:43
प्रत्येक फ्रेम के लिए प्रतिनिधित्व जो आप कर सकते हैं
4:45
एक समान ध्यान-आधारित प्रक्रिया का उपयोग करें
4:47
प्रत्येक फ्रेम एक साथ संवाद करें और
4:50
अपने मॉडल को सूचनाओं के आदान-प्रदान की अनुमति दें
4:52
फ्रेम के बीच और एक फाइनल बनाएं
4:55
वीडियो के लिए प्रतिनिधित्व यह
4:57
फ्रेम के बीच सूचना का आदान-प्रदान
4:59
ध्यान का उपयोग किसी प्रकार के रूप में कार्य करेगा
5:02
आपके मॉडल को समझने के लिए स्मृति
5:04
एक जोड़े के बजाय एक पूरे के रूप में वीडियो
5:06
यादृच्छिक छवियां एक साथ अंत में हम उपयोग करते हैं
5:09
विलय करने के लिए एक और ध्यान मॉड्यूल
5:11
हमारे पास मौजूद फ़्रेमों की टेक्स्ट एनकोडिंग
5:14
हमारे संघनित वीडियो प्रतिनिधित्व
5:17
और वोइला यह एक तरह से एक है
5:20
निश्चित रूप से एक वीडियो को समझता है यह था
5:23
द्वारा इस महान पेपर का एक सिंहावलोकन
5:25
Microsoft अनुसंधान एक के रूप में कार्य कर रहा है
5:27
वीडियो पहचान का परिचय i
5:30
आपको उनके पेपर को पढ़ने के लिए आमंत्रित करते हैं a
5:32
उनके दृष्टिकोण की बेहतर समझ i
5:34
घोषणा करते हुए भी खुशी हो रही है
5:36
अगले nvidia gtc . के लिए एक और सस्ता
5:39
19 सितंबर से सितंबर तक की घटना
5:42
22वां एनवीडिया मुझे एक बार फिर दे रहा है
5:45
इसे देने के लिए rtx 3080 ti
5:48
आप में से उन लोगों के लिए समुदाय
5:50
घटना केवल दो चीजें जो आपको करनी हैं
5:53
जीतने का मौका पाने के लिए हैं
5:55
चैनल को सब्सक्राइब करें और मुझे डीएम करें
5:57
आपके द्वारा किए जाने वाले टोलों में से एक का स्क्रीनशॉट
5:59
कार्यक्रम के दौरान शामिल होने का फैसला
6:02
यह देखने के लिए धन्यवाद
6:04
मेरे दोस्तों को वीडियो और हार्दिक धन्यवाद
6:06
मुझे आशा है कि वीडियो को प्रायोजित करने के लिए स्केल एआई
6:09
वस्तुतः आपको उनके निःशुल्क कार्यक्रम में देखने के लिए
6:11
शीघ्र ही और मैं आपको अगले सप्ताह देखूंगा
6:13
एक और अद्भुत कागज के साथ
[संगीत]